APPO: Optimización Procedimental Agencial de Políticas
APPO mejora el aprendizaje por refuerzo en agentes de IA asignando crédito preciso a decisiones intermedias. Resultados en 13 benchmarks.
APPO mejora el aprendizaje por refuerzo en agentes de IA asignando crédito preciso a decisiones intermedias. Resultados en 13 benchmarks.